Traffic flow prediction is an important part of smart transportation. The goal is to predict future traffic conditions based on historical data recorded by sensors and the traffic network. As the city continues to build, parts of the transportation network will be added or modified. How to accurately predict expanding and evolving long-term streaming networks is of great significance. To this end, we propose a new simulation-based criterion that considers teaching autonomous agents to mimic sensor patterns, planning their next visit based on the sensor's profile (e.g., traffic, speed, occupancy). The data recorded by the sensor is most accurate when the agent can perfectly simulate the sensor's activity pattern. We propose to formulate the problem as a continuous reinforcement learning task, where the agent is the next flow value predictor, the action is the next time-series flow value in the sensor, and the environment state is a dynamically fused representation of the sensor and transportation network. Actions taken by the agent change the environment, which in turn forces the agent's mode to update, while the agent further explores changes in the dynamic traffic network, which helps the agent predict its next visit more accurately. Therefore, we develop a strategy in which sensors and traffic networks update each other and incorporate temporal context to quantify state representations evolving over time.
translated by 谷歌翻译
Neural Architecture Search (NAS) is an automatic technique that can search for well-performed architectures for a specific task. Although NAS surpasses human-designed architecture in many fields, the high computational cost of architecture evaluation it requires hinders its development. A feasible solution is to directly evaluate some metrics in the initial stage of the architecture without any training. NAS without training (WOT) score is such a metric, which estimates the final trained accuracy of the architecture through the ability to distinguish different inputs in the activation layer. However, WOT score is not an atomic metric, meaning that it does not represent a fundamental indicator of the architecture. The contributions of this paper are in three folds. First, we decouple WOT into two atomic metrics which represent the distinguishing ability of the network and the number of activation units, and explore better combination rules named (Distinguishing Activation Score) DAS. We prove the correctness of decoupling theoretically and confirmed the effectiveness of the rules experimentally. Second, in order to improve the prediction accuracy of DAS to meet practical search requirements, we propose a fast training strategy. When DAS is used in combination with the fast training strategy, it yields more improvements. Third, we propose a dataset called Darts-training-bench (DTB), which fills the gap that no training states of architecture in existing datasets. Our proposed method has 1.04$\times$ - 1.56$\times$ improvements on NAS-Bench-101, Network Design Spaces, and the proposed DTB.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
最近,音频驱动的会说话的面部视频产生引起了广泛的关注。但是,很少有研究能够解决这些会说话的面部视频的情感编辑问题,并具有连续可控的表达式,这是行业中强烈的需求。面临的挑战是,与语音有关的表达和与情感有关的表达通常是高度耦合的。同时,由于表达式与其他属性(例如姿势)的耦合,即在每个框架中翻译角色的表达可能会同时改变头部姿势,因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中,我们提出了一种高质量的面部表达编辑方法,用于谈话面部视频,使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角,作为运动信息编辑的特殊情况,我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图,以捕获外观细节。两种表示(3DMM和纹理图)都包含情感信息,并且可以通过神经网络进行连续修改,并通过系数/潜在空间平均轻松平滑,从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失,以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明,我们的方法在各种评估标准中实现了最先进的表现。
translated by 谷歌翻译
深度学习在计算机视觉方面取得了巨大的成功,而由于数据注释的稀缺性,医疗图像细分(MIS)仍然是一个挑战。几次分割的元学习技术(meta-fs)已被广泛用于应对这一挑战,而它们忽略了查询图像和支持集之间可能的分配变化。相比之下,经验丰富的临床医生可以通过从查询图像中借用信息,然后相应地对其(她)先前的认知模型进行微调或校准。在此灵感的启发下,我们提出了一种Q-NET,这是一种质疑的Meta-FSS方法,它在精神上模仿了专家临床医生的学习机制。我们基于ADNET构建Q-NET,这是一种最近提出的异常检测启发方法。具体而言,我们将两个查询信息的计算模块添加到ADNET中,即一个查询信息的阈值适应模块和一个查询信息的原型细化模块。将它们与特征提取模块的双路扩展相结合,Q-NET在两个广泛使用的数据集上实现了最先进的性能,分别由腹部MR图像和心脏MR图像组成。我们的作品通过利用查询信息来改善元FSS技术的新颖方法。
translated by 谷歌翻译
神经体系结构搜索(NAS)可以自动为深神经网络(DNN)设计架构,并已成为当前机器学习社区中最热门的研究主题之一。但是,NAS通常在计算上很昂贵,因为在搜索过程中需要培训大量DNN。绩效预测因素可以通过直接预测DNN的性能来大大减轻NAS的过失成本。但是,构建令人满意的性能预测能力很大程度上取决于足够的训练有素的DNN体系结构,在大多数情况下很难获得。为了解决这个关键问题,我们在本文中提出了一种名为Giaug的有效的DNN体系结构增强方法。具体而言,我们首先提出了一种基于图同构的机制,其优点是有效地生成$ \ boldsymbol n $(即$ \ boldsymbol n!$)的阶乘,对具有$ \ boldsymbol n $ n $ n $ n $ \ boldsymbol n $的单个体系结构进行了带注释的体系结构节点。此外,我们还设计了一种通用方法,将体系结构编码为适合大多数预测模型的形式。结果,可以通过各种基于性能预测因子的NAS算法灵活地利用Giaug。我们在中小型,中,大规模搜索空间上对CIFAR-10和Imagenet基准数据集进行了广泛的实验。实验表明,Giaug可以显着提高大多数最先进的同伴预测因子的性能。此外,与最先进的NAS算法相比,Giaug最多可以在ImageNet上节省三级计算成本。
translated by 谷歌翻译
这项工作提出了一种在像素处理器阵列(PPA)传感器上实施完全卷积神经网络(FCN)的方法,并演示了粗分割和对象定位任务。我们使用batchnorm,小组卷积和可学习的二进制阈值设计和训练二进制的FCN,用于二进制重量和激活,生产足够小的网络,以嵌入PPA的焦平面上,并具有有限的本地记忆资源,并使用平行基本添加添加添加的网络/仅减去,转移和位操作。我们演示了PPA设备上FCN的首次实现,并在像素级处理器中完全执行三个卷积层。我们使用此体系结构来证明使用SCAMP-5 PPA视觉芯片在280 fps处的对象分割和定位的推理生成热图。
translated by 谷歌翻译
本文介绍了一种基于单模态语义分割的新型坑洞检测方法。它首先使用卷积神经网络从输入图像中提取视觉特征。然后,通道注意力模块重新引起通道功能以增强不同特征映射的一致性。随后,我们采用了一个不足的空间金字塔汇集模块(包括串联循环升级的不足卷积)来整合空间上下文信息。这有助于更好地区分坑洼和未损害的道路区域。最后,相邻层中的特征映射使用我们提出的多尺度特征融合模块融合。这进一步降低了不同特征通道层之间的语义间隙。在Pothole-600数据集上进行了广泛的实验,以证明我们提出的方法的有效性。定量比较表明,我们的方法在RGB图像和变换的差异图像上实现了最先进的(SOTA)性能,优于三个SOTA单模语义分段网络。
translated by 谷歌翻译
协作过滤(CF)广泛用于推荐系统以模拟用户项目交互。随着各个领域的深度神经网络(DNN)的巨大成功,高级作品最近提出了几种基于DNN的CF模型,这已被证明是有效的。但是,神经网络都是手动设计的。因此,它要求设计人员在CF和DNN中开发专业知识,这限制了深度学习方法在CF中的应用以及推荐结果的准确性。在本文中,我们将遗传算法介绍到设计DNN的过程中。通过遗传操作,如交叉,突变和环境选择策略,可以自动设计DNN的架构和连接权重初始化。我们对两个基准数据集进行了广泛的实验。结果证明了所提出的算法优于几种手动设计的最先进的神经网络。
translated by 谷歌翻译
知识图形嵌入(KGE)旨在学习实体和关系的陈述。大多数KGE模型取得了巨大的成功,特别是在外推情景中。具体地,考虑到看不见的三倍(H,R,T),培训的模型仍然可以正确地预测(H,R,Δ)或H(Δ,r,t),这种外推能力令人印象深刻。但是,大多数现有的KGE工作侧重于设计精致三重建模功能,主要告诉我们如何衡量观察三元的合理性,但是对为什么可以推断到未看见数据的原因有限的解释,以及什么是重要因素帮助Kge外推。因此,在这项工作中,我们试图研究kge外推两个问题:1。凯格如何推断出看看的数据? 2.如何设计KGE模型,具有更好的外推能力?对于问题1,我们首先分别讨论外推和关系,实体和三级的影响因素,提出了三种语义证据(SES),可以从列车集中观察,并为推断提供重要的语义信息。然后我们通过对几种典型KGE方法的广泛实验验证SES的有效性。对于问题2,为了更好地利用三个级别的SE,我们提出了一种新的基于GNN的KGE模型,称为语义证据意识图形神经网络(SE-GNN)。在SE-GNN中,每个级别的SE由相应的邻居图案明确地建模,并且通过多层聚合充分合并,这有助于获得更多外推知识表示。最后,通过对FB15K-237和WN18RR数据集的广泛实验,我们认为SE-GNN在知识图表完成任务上实现了最先进的性能,并执行更好的外推能力。
translated by 谷歌翻译